独家解析：深度学习泛化理论的破解之道与应用前景

作者：bjkml | 来源：互联网 | 2024-11-09 19:29

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。

作者&＃xff1a;Dmytrii S.

翻译&＃xff1a;陈之炎

校对&＃xff1a;卢苗苗

本文共2360字&＃xff0c;建议阅读5分钟。
本文与大家讨论深度学习泛化理论中的一些经验并试图对它做出解释。

我们可以从最新的关于深度学习“炼金术”的悖论研究中了解一二。

动机

深度学习目前正被用于方方面面。但是&＃xff0c;人们经常批评它缺乏一个基础理论&＃xff0c;能够完全解释其为什么能如此神奇。最近&＃xff0c;神经信息处理系统大会(NIPS)的时间测试奖(Test-of-Time)得主将深度学习比作“炼金术”。

尽管解释深度学习泛化理论仍然是一个悬而未决的问题&＃xff0c;在这篇文章中&＃xff0c;我们将讨论这个领域最新的理论和先进的经验&＃xff0c;并试图对它做出解释。

深度学习的悖论

深度学习的一个“显而易见的悖论”是&＃xff1a;尽管在实际问题中它具有大容量、数值不稳定、尖锐极小解&＃xff08;SharpMinima&＃xff09;和非鲁棒性等特点&＃xff0c;它在实践中可以很好地推广。

在最近的一篇文章《理解深度学习需要反思泛化》里表明&＃xff1a;深度神经网络&＃xff08;DNN&＃xff09;具有足够大的存储容量去记住带有随机标签的ImageNet和CIFAR10数据集。目前尚不清楚为什么他们在真实数据找到了可泛化的解决方案。

深层架构的另一个重要问题是数值不稳定性。在基于导数的学习算法中&＃xff0c;数值不稳定性通常被称为梯度消失。底层正向模型的不稳定性导致了更大的难度。也就是说&＃xff0c;对于原始特征中的小扰动&＃xff0c;某些网络的输出可能是不稳定的。在机器学习中&＃xff0c;它被称为非鲁棒性。其中一个例子是图1所示的对抗性攻击。

图1&＃xff1a;来源&＃xff1a;带有对抗攻击示例的机器学习

一些研究将深度学习的泛化论点建立在通过随机梯度下降(SGD)从而找到损失函数的最小平坦度上。然而&＃xff0c;最近的研究表明&＃xff1a;“尖锐极小解&＃xff08;Sharp Minima&＃xff09;对于深度网络同样具有更好的泛化能力”。更具体地说&＃xff0c;通过重新参数化可以将平坦极小解转化为尖锐极小解&＃xff0c;而不改变泛化能力。因此&＃xff0c;泛化不能仅用参数空间的鲁棒性来解释。

泛化理论

泛化理论的目的是解释和证明为什么和如何提高训练集的准确率。这两个准确率之间的差异称为“泛化误差”或“泛化间隙”。从更严格的意义上&＃xff0c;泛化间隙可以被定义为在给定学习算法A的数据集SM上的函数F的不可计算的预期风险和可计算的经验风险之间的差&＃xff1a;

本质上&＃xff0c;如果我们将泛化间隙的上界设定成一个小的数值&＃xff0c;它将保证深度学习算法f在实际中很好地泛化。泛化间隙的多个理论上界取决于模型的复杂度、稳定性、鲁棒性等。

深度学习的模型复杂性有两种&＃xff1a;Rademacher复杂性和Vapnik‑Chervonenkis&＃xff08;VC&＃xff09;维度。然而&＃xff0c;对于已知的上界的深入学习函数f, Radamacher复杂性随着网络深度的增长成指数级增长。这与实际观察的结果恰恰相反&＃xff0c;适合的训练数据网络深度越大&＃xff0c;经验误差就越小。同样&＃xff0c;泛化间隙的上界基于VC维度和训练参数呈线性增长&＃xff0c;不取决于深度学习中的实际观察值。换句话说&＃xff0c;这两个上界限均太保守。

最近&＃xff0c;KKawaguchi、LPKELING和YBengio提出了更为有用的办法。与其他人不同&＃xff0c;他们接受了这样一个事实&＃xff0c;即通常使用训练验证范式培训深度学习模型。他们使用验证错误替代非可计算的预期风险和训练错误。在这种观点中&＃xff0c;他们针对为什么深度学习能泛化得如此完美而提出了以下观点&＃xff1a;“我们之所以可以泛化得这么很好是因为我们可以利用验证的错误&＃xff0c;通过模型搜索得到一个好的模型&＃xff0c;并证明对于任何δ > 0&＃xff0c;概率至少为1-δ&＃xff1a;

重要的是&＃xff1a;|Fval|是我们利用验证数据集来选择最终模型进行决策的次数&＃xff0c;M是验证集的大小。这一数值可以用来解释为什么深度学习可以泛化得如此好&＃xff0c;尽管可能带来不稳定、非鲁棒性和尖锐利极小解&＃xff08;Sharp Minima&＃xff09;。还有一个悬而未决的问题是&＃xff1a;为什么我们能够找到导致低验证错误的体系结构和参数。通常&＃xff0c;架构的灵感来自真实世界的观察和通过使用SGD搜索到的良好的参数&＃xff0c;我们会在下文进行讨论&＃xff1a;

随机梯度下降&＃xff08;SGD&＃xff09;

SGD是现代深度学习的内在组成部分&＃xff0c;显然是其泛化背后的主要原因之一。接下来我们将讨论它的泛化属性。

在最近的一篇论文《随机梯度下降的数据相关稳定性》中&＃xff0c;作者证明了在某些附加损失条件下&＃xff0c;SGD是平均稳定算法。这些条件在常用的损失函数中就可以得到满足&＃xff0c;例如在激活函数是sigmoid函数的神经网络中通常用到Logistic/Softmax损失函数。在这种情况下&＃xff0c;稳定性意味着SGD对训练集中的小扰动有多敏感。他们进一步证明了非凸函数(如深度神经网络)中SGD泛化间隙的平均数据上界的数据相关性&＃xff1a;

其中m是训练集的大小&＃xff0c;T是训练步长&＃xff0c;γ表征了初始点的曲率对稳定性的影响。从中至少可以得出两个结论。首先&＃xff0c;目标函数在初始化点附近的曲率对目标函数的初值有着至关重要的影响。从一个低风险的曲率较小的区域中的一个点开始&＃xff0c;能产生更高的稳定性&＃xff0c;即更快地泛化。在实践中&＃xff0c;它可以是一个很好pre-screen决策&＃xff0c;以选择良好的初始化参数。第二&＃xff0c;考虑到通过率&＃xff0c;即m&＃61;O(T)&＃xff0c;我们简化了对O(M)的上界。即训练集越大&＃xff0c;泛化差距越小。

有趣的是&＃xff0c;有大量的研究正在探究学习曲线。其中大部分显示幂律泛化误差&＃xff0c;缩放比例为ε(m)-mm&＃xff0c;指数β&＃61;−0.5或−1。这也与前面讨论过的结论一致。然而&＃xff0c;很重要的是&＃xff0c;百度做了大量的研究&＃xff0c;已能够凭经验观察到这一幂律&＃xff08;见图2&＃xff09;。实际应用中的指数β介于−0.07和−0.35之间&＃xff0c;这一数值还必须得到理论上的解释。

图2 资料来源&＃xff1a;深度学习的缩放比例是可预测的&＃xff0c;经验值。

此外&＃xff0c;SGD泛化中关于批量大小&＃xff08;一个批量中样本的数量&＃xff09;有理论值和经验值两种。直观地说&＃xff0c;小批量训练会在梯度上引入噪音&＃xff0c;这种噪音会使SGD远离最小的极小值&＃xff0c;从而增强泛化能力。在谷歌最近的一篇论文中&＃xff0c;它表明批量大小的优化与学习速率和训练集大小成比例。或者简单地说&＃xff0c;“不牺牲学习速率&＃xff0c;增加批量大小”。同样的缩放规则来自SGD动量&＃xff1a;Bopt ~1/(1 − m)&＃xff0c; Bopt是优化的批量大小&＃xff0c;m是动量。或者&＃xff0c;所有结论都可以用下面的等式来概括&＃xff1a;

ε是学习速率&＃xff08;learningrate&＃xff09;&＃xff0c;N为训练集的大小&＃xff0c;m是动量和B是批量大小。

结论

在过去的几年里&＃xff0c;人们对深度学习的基础理论中悖论越来越感兴趣。尽管仍然存在一些尚未解决的研究问题&＃xff0c;但现代深度学习绝不是所谓的炼金术。在本文中&＃xff0c;我们讨论了这个问题的泛化观点&＃xff0c;得出了一些实际的结论&＃xff1a;

在曲率较小和风险较低的区域选择初始化参数。用Hessian向量乘法可以有效地估计曲率。

在改变动量时&＃xff0c;对批次的大小进行缩放。

不牺牲学习速率&＃xff0c;增加批量大小。

原文链接&＃xff1a;https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

译者简介

陈之炎&＃xff1a;北京交通大学通信与控制工程专业毕业&＃xff0c;获得工学硕士学位&＃xff0c;历任长城计算机软件与系统公司工程师&＃xff0c;大唐微电子公司工程师&＃xff0c;现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护&＃xff0c;在人工智能深度学习和自然语言处理&＃xff08;NLP&＃xff09;方面积累有一定的经验。业余时间喜爱翻译创作&＃xff0c;翻译作品主要有&＃xff1a;IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等&＃xff0c;其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组&＃xff0c;希望能和大家一起交流分享&＃xff0c;共同进步

翻译组招募信息

工作内容&＃xff1a;需要一颗细致的心&＃xff0c;将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生&＃xff0c;或在海外从事相关工作&＃xff0c;或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到&＃xff1a;定期的翻译培训提高志愿者的翻译水平&＃xff0c;提高对于数据科学前沿的认知&＃xff0c;海外的朋友可以和国内技术应用发展保持联系&＃xff0c;THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利&＃xff1a;来自于名企的数据科学工作者&＃xff0c;北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

推荐阅读

uml
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
import
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
import
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
php
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
php
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
php
利用公共数据启动数据驱动型项目

探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者，本文将为您提供实用建议和资源，帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]

蜡笔小新 2024-12-24 13:08:35
java
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
import
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
php
Google排名优化－面向Google(Search Engine Friendly)的URL设计

Google排名优化－面向Google(Search Engine Friendly)的URL设计 ... [详细]

蜡笔小新 2024-12-19 16:16:50
php
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27
bit
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
bit
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
php
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
php
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
ip
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25

bjkml

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章